MCOUT 멀티 모달 연속적 CoT VLA (2025-08-18)

MCOUT 멀티 모달 연속적 CoT VLA (2025-08-18)

2025-12-10, G30DR

1. 서론: 인지적 모방을 통한 인공지능 추론의 재구성

인공지능(AI), 특히 대규모 언어 모델(LLM)과 비전-언어 모델(VLM)의 발전은 인간의 지적 능력을 모방하고 확장하려는 지속적인 시도의 역사다. 텍스트와 이미지를 동시에 처리하는 VLM의 등장은 시각적 인식과 언어적 서술을 결합하여 복잡한 문제를 해결할 수 있는 가능성을 열었다. 그러나 현재의 주류 접근 방식, 특히 ‘사고의 사슬(Chain-of-Thought, CoT)’ 프롬프팅은 인간의 추론 과정을 언어라는 이산적(discrete) 기호 체계로만 한정 짓는 근본적인 한계에 봉착해 있다. 인간은 복잡한 시각적 문제를 해결할 때 반드시 언어로 모든 중간 단계를 서술하지 않는다. 오히려 직관적이고 연속적인 사고의 흐름 속에서 시각적 패턴을 재확인하고 논리를 수정하며, 최종적인 결론에 도달했을 때 비로소 언어로 표현한다. 이러한 ‘비언어적’ 또는 ‘전언어적(pre-linguistic)’ 사고 과정을 AI 모델에 구현하려는 시도가 바로 본 보고서에서 다룰 **다중 모달 연속 사고 체인(MCOUT, Multimodal Chain of Continuous Thought)**이다.1

Tan-Hanh Pham과 Chris Ngo(Harvard Medical School 및 Knovel Engineering Lab)가 제안한 MCOUT 프레임워크는 기존의 토큰 기반 추론 방식을 전면적으로 재검토한다.1 이 연구는 추론의 중간 과정을 자연어 단어의 나열이 아닌, 모델 내부의 고차원 잠재 공간(Latent Space)에서의 연속적인 벡터 변환 과정으로 정의한다. 이는 언어적 병목(Language Bottleneck) 현상을 해소하고, 시각적 정보와 텍스트 정보 간의 정렬(Alignment)을 동적으로 최적화하며, 계산 효율성을 극대화하는 새로운 패러다임이다.1

본 보고서는 MCOUT의 이론적 배경부터 기술적 구현, 그리고 MMMU, ScienceQA 등 주요 벤치마크에서의 실증적 성과에 이르기까지 해당 기술을 포괄적이고 심층적으로 분석한다. 특히 MCOUT가 제시하는 ’잠재적 추론(Latent Reasoning)’이 향후 범용 인공지능(AGI) 및 로보틱스 분야에 미칠 파급력을 논의하며, 단순한 성능 개선을 넘어선 인지 아키텍처로서의 의의를 규명한다.

graph TD
subgraph "기존 텍스트 기반 CoT (Discrete)"
A1["이미지 입력"] --> B1["비전 인코더 (Tokenization)"]
B1 --> C1["텍스트 프롬프트 결합"]
C1 --> D1["LLM 처리"]
D1 --> E1["중간 추론 단계 (텍스트 토큰 생성)"]
E1 -- "언어적 병목 발생" --> F1["정보 손실 및 비효율적 연산"]
F1 --> G1["최종 답변 (텍스트)"]
end

subgraph "MCOUT 프레임워크 (Continuous)"
A2["이미지 + 텍스트 입력"] --> B2["입력 임베딩 (Interleaved)"]
B2 --> C2["Llama 1B 백본"]
C2 --> D2["연속적 사고 벡터 (Thought Vectors)"]
D2 -- "잠재 공간(Latent Space) 변환" --> E2["반복적 사고 정제 (N_t회)"]
E2 --> F2["최종 답변 (텍스트 디코딩)"]
end

style E1 fill:#ffcccc,stroke:#333,stroke-width:2px
style D2 fill:#ccffcc,stroke:#333,stroke-width:2px

2. 다중 모달 추론의 기술적 계보와 한계

2.1 텍스트 기반 CoT의 지배와 언어적 병목

지난 몇 년간 LLM의 추론 능력을 극대화한 핵심 기법은 단연 Wei et al.(2022)이 제안한 CoT였다. 모델에게 “단계별로 생각하라(Let’s think step by step)“는 지시를 내림으로써, 모델은 중간 계산 과정이나 논리적 비약을 언어로 풀어내며 정답률을 높였다. VLM 초기 모델인 LLaVA, MiniGPT-4 등은 이러한 텍스트 기반 CoT를 그대로 차용했다. 이미지를 비전 인코더를 통해 토큰화한 뒤, 이를 텍스트 프롬프트와 결합하여 LLM이 텍스트로 추론을 이어가는 방식이다.1

그러나 이 방식은 다중 모달 컨텍스트에서 심각한 효율성 저하와 정보 손실을 초래한다. 이를 학계에서는 **‘언어적 병목(Language Bottleneck)’**이라 지칭한다.

  1. 정보의 비가역적 압축: 이미지는 픽셀 단위의 풍부한 정보를 담고 있으나, 이를 텍스트 토큰으로 변환하여 추론하는 과정에서 필연적으로 정보량이 급감한다. “빨간색 자동차“라는 텍스트는 실제 이미지 속 자동차의 구체적인 명도, 채도, 디자인, 주변 광원과의 상호작용 등을 완벽히 담아내지 못한다. 따라서 텍스트 기반 CoT는 이미지를 ’요약’된 형태로만 다루게 되어 세밀한 시각적 추론에 실패할 확률이 높다.3
  2. 동적 정렬의 부재: 텍스트로 추론을 진행하는 동안 모델은 초기에 입력된 정적 비전 특징(Static Vision Features)에만 의존해야 한다. 인간이 문제를 풀다가 막히면 다시 그림의 특정 부분을 자세히 들여다보는 ‘시각적 재접지(Visual Regrounding)’ 과정이 결여되어 있다. 이는 긴 추론 과정에서 모델이 시각적 맥락을 잃어버리고 환각(Hallucination)을 일으키는 주된 원인이 된다.1
  3. 계산 비용의 증가: 모든 사고 과정을 텍스트로 출력해야 하므로, 추론 단계가 복잡할수록 생성해야 할 토큰 수가 기하급수적으로 늘어난다. 이는 추론 지연(Latency)을 유발하며, 실시간성이 중요한 로보틱스나 자율주행 시스템에 VLM을 적용하는 데 걸림돌이 된다.1
graph TD
IMG["원본 이미지 (풍부한 픽셀 정보)"] -- "정보 압축" --> ENC["비전 인코더"]
ENC -- "토큰화" --> TOK["이산적 토큰 (Discrete Tokens)"]

TOK -- "빨간색 자동차 (세부 정보 소실)" --> LLM["언어 모델 추론"]

LLM -- "시각적 재접지 불가" --> HAL["환각 (Hallucination) 발생 가능성"]
LLM -- "긴 토큰 생성" --> COST["계산 비용(Latency) 증가"]

style IMG fill:#e1f5fe
style TOK fill:#ffebee
style HAL fill:#ffccbc

2.2 이산적 추론에서 연속적 추론으로의 전환

이러한 한계를 극복하기 위해 최근 AI 연구는 이산적인(discrete) 토큰 공간을 넘어 연속적인(continuous) 잠재 공간에서의 추론 가능성을 모색하기 시작했다. 이산적 추론이 체스 말의 움직임처럼 딱딱 끊어지는 논리 전개라면, 연속적 추론은 물의 흐름처럼 유연하게 의미가 변환되는 과정이다.

LLM 분야에서는 ‘Coconut (Chain of Continuous Thought)’ 모델이 이러한 시도의 선구적 사례다. Coconut은 추론의 중간 단계를 텍스트로 디코딩하지 않고, 마지막 은닉 상태(Last Hidden State)를 다음 입력으로 직접 전달한다. 이를 통해 모델은 언어의 문법적 제약에서 벗어나 더 넓은 탐색 공간을 가질 수 있으며, 여러 가능성을 중첩(Superposition)하여 사고할 수 있게 된다.6 MCOUT는 이 Coconut의 개념을 다중 모달 영역으로 확장하고 심화시킨 결과물이다. 텍스트뿐만 아니라 시각적 정보가 혼합된 고차원 공간에서의 추론을 구현함으로써, 진정한 의미의 ’다중 모달 사고’를 시도한다.1

graph TD
subgraph "초기 단계: 단일 모달 & 정적 처리"
A["LLM (대규모 언어 모델)"] -- "텍스트 처리 능력" --> B["VLM 초기 모델 (LLaVA, MiniGPT-4)"]
B -- "이미지를 텍스트 토큰으로 변환" --> C["텍스트 기반 CoT (Chain-of-Thought)"]
end

subgraph "과도기: 이산적 추론의 한계 봉착"
C -- "언어적 병목 현상 발생" --> D["정보 손실 및 계산 비용 증가"]
C -- "단일 모달 내 연속 추론 시도" --> E["Coconut 모델 (LLM 전용)"]
end

subgraph "MCOUT: 다중 모달 연속 추론"
E -- "개념 확장 (텍스트 -> 멀티모달)" --> F["MCOUT-Base"]
D -- "문제 해결 시도" --> F
F -- "다중 모달 어텐션 추가" --> G["MCOUT-Multi"]
G -- "잠재 공간에서의 성찰적 사고" --> H["차세대 AGI 및 로보틱스"]
end

style F fill:#d4e157,stroke:#9e9d24
style G fill:#9ccc65,stroke:#558b2f

3. MCOUT 프레임워크의 아키텍처 및 방법론

MCOUT는 인간의 ’성찰적 인지(Reflective Cognition)’를 모방한다. 인간은 모호한 시각 정보를 마주했을 때, 즉시 결론을 내리지 않고 마음속으로 가설을 세우고(잠재 사고 생성), 다시 시각 정보를 확인하며(교차 모달 정렬), 가설을 수정하는 반복 과정을 거친다. MCOUT는 이를 알고리즘적으로 구현하기 위해 두 가지 핵심 변형 모델인 MCOUT-BaseMCOUT-Multi를 제안한다.1

3.1 모델 백본(Backbone) 및 초기 설정

MCOUT의 실험적 구현은 효율성을 입증하기 위해 상대적으로 작은 규모인 10억 파라미터(1B) 모델을 기반으로 한다. 구체적으로 시각적 인코더로는 CLIP(Contrastive Language-Image Pre-training)을, 언어 모델로는 Llama 3.2 1B (SilVar 모델 기반)를 사용한다.1

입력 데이터는 이미지와 텍스트가 인터리빙(Interleaving)된 시퀀스로 처리된다. 입력 임베딩을 e \in \mathbb{R}^{B \times S \times D}, 어텐션 마스크를 m \in {0,1}^{B \times S}라고 할 때, 기본 언어 모델 L은 은닉 상태 h를 계산한다:

h = L(e, m)
여기서 B는 배치 크기, S는 시퀀스 길이, D는 임베딩 차원을 의미한다.4

3.2 연속적 사고(Continuous Thought)의 메커니즘

MCOUT의 핵심은 추론 단계에서 생성되는 출력이 토큰이 아닌 ’사고 벡터(Thought Vector)’라는 점이다. 모델은 N_t번의 반복(iteration)을 통해 사고를 정제한다.

graph TD
INPUT["초기 입력 (이미지+텍스트)"] --> L0["Layer 0"]
L0 --> PROCESS["모델 연산 (Llama 3.2 1B)"]

PROCESS --> H_LAST["마지막 은닉 상태 (h_last)"]

H_LAST -- "다음 단계 입력으로 재사용 (h_t)" --> ITER["반복 (Iteration k)"]
ITER -- "k < N_t" --> PROCESS

ITER -- "k = N_t" --> DECODE["언어 생성 모드 전환"]
DECODE --> OUT["최종 텍스트 출력"]

3.2.1 MCOUT-Base: 잠재 상태의 순환적 재사용

MCOUT-Base는 가장 단순화된 형태의 잠재 추론이다. 이 모델은 현재 단계의 언어 모델 출력인 마지막 은닉 상태 h_{last}^{(k-1)}를 다음 단계의 입력 사고 벡터 h_t^{(k)}로 그대로 사용한다.

h_t^{(k)} = h_{last}^{(k-1)}
이 벡터는 입력 시퀀스의 끝에 추가되어 다음 단계의 연산을 수행하는 맥락(Context)으로 작용한다. 이는 Coconut 모델의 접근 방식을 VLM에 적용한 것으로, 언어 모델의 내재된 추론 능력을 잠재 공간으로 확장한다. 그러나 이 방식은 추론 단계가 깊어질수록 초기에 입력된 시각적 정보와의 거리가 멀어져 정보가 희석될 수 있다는 잠재적 약점을 가진다.1

3.2.2 MCOUT-Multi: 다중 모달 잠재 어텐션 (Multimodal Latent Attention)

MCOUT-Multi는 MCOUT-Base의 약점을 보완하고, 시각 정보와 텍스트 정보의 긴밀한 통합을 위해 다중 모달 잠재 어텐션 메커니즘을 도입한다. 이는 MCOUT의 가장 중요한 기술적 기여 중 하나다. 단순히 이전 사고를 복사하는 것이 아니라, 현재의 사고 상태를 쿼리(Query)로 사용하여 원본 입력(이미지+텍스트) 전체를 다시 조회(Attend)한다.

수학적으로 이는 다음과 같이 표현된다:

h_t^{(k)} = \text{MultimodalLatentAttention}(Q=h_{last}^{(k-1)}, K=e, V=e)
여기서 Q는 현재의 사고 상태, KV는 초기 입력 임베딩 전체이다. 이를 통해 모델은 매 사고 단계마다 “이 가설이 맞는지 원본 이미지를 다시 확인해보자“라는 과정을 수행하게 된다. 이는 정보의 소실을 방지하고(Preventing Forgetting), 시각적 환각을 억제하며, 이미지와 텍스트 간의 정렬을 동적으로 갱신한다.1

graph TD
ORIGIN["원본 입력 임베딩 (e)"]

subgraph "사고 단계 k (Thought Step k)"
PREV_THOUGHT["이전 사고 상태 (h_last)"]

Q_NODE["Query (Q) = 현재 사고"]
KV_NODE["Key(K), Value(V) = 원본 입력(e)"]

PREV_THOUGHT --> Q_NODE
ORIGIN -.-> KV_NODE

ATTN["Cross Attention (Q, K, V)"]
Q_NODE --> ATTN
KV_NODE --> ATTN

ATTN -- "시각적 정보 재정렬 (Regrounding)" --> NEW_THOUGHT["갱신된 사고 벡터 (h_t)"]
end

NEW_THOUGHT --> APPEND["시퀀스에 추가 (Append)"]
APPEND --> NEXT_ITER["다음 반복으로"]

style ORIGIN fill:#fff9c4,stroke:#fbc02d
style ATTN fill:#b2dfdb,stroke:#00695c
sequenceDiagram
participant Input as "입력<br>(이미지+텍스트)"
participant Encoder as "Vision/Text<br>인코더"
participant Latent as "잠재 공간<br>(Latent Space)"
participant Attn as "Multimodal<br>Latent<br>Attention"
participant Output as "최종 출력<br>(텍스트)"

Input->>Encoder: "데이터 주입"
Encoder->>Latent: "초기 임베딩 (e) 생성"

Note over Latent, Attn: "추론 단계 시작<br>(총 N_t 회 반복)"

loop "N_t회 반복 (사고 정제)"
Latent->>Latent: "이전 사고 상태<br>(h_last) 로드"
Latent->>Attn: "Query:<br>현재 사고 상태"
Encoder->>Attn: "Key/Value:<br>원본 입력 임베딩 (e)"
Attn->>Attn: "교차 어텐션 수행<br>(이미지 재참조)"
Attn->>Latent: "갱신된 사고 벡터<br>(h_t) 반환"
Latent->>Latent: "입력 시퀀스에<br>h_t 추가 (Append)"
end

Latent->>Output: "최종 사고 벡터 전달"
Output->>Output: "텍스트 토큰으로 디코딩"
Output-->>Input: "최종 답변 생성 완료"

3.3 반복적 갱신 및 최종 출력

생성된 사고 벡터 h_t^{(k)}는 입력 시퀀스에 지속적으로 추가(Append)된다.

e_{inter}^{(k)} = [e_{inter}^{(k-1)}, h_t^{(k)}] \in \mathbb{R}^{B \times (S_{max}+k) \times D}
어텐션 마스크 역시 이에 맞춰 확장된다. 이 과정은 사전에 정의된 횟수 N_t만큼 반복되며, 마지막 N_t+1 단계에서 비로소 모델은 언어 생성 모드로 전환되어 최종 답변 y를 토큰 시퀀스로 출력한다.1

3.4 학습 전략 및 손실 함수 (Loss Function)

MCOUT의 학습은 단순히 최종 정답을 맞추는 것에 그치지 않고, 중간에 생성되는 잠재 사고들이 유의미한 정보를 함축하도록 유도해야 한다. 이를 위해 연구진은 **보조 손실(Auxiliary Loss)**을 도입하여 전체 손실 함수를 설계했다.

L_{total} = \sum_{k=1}^{N_t} \mu \cdot L_{aux}^{(k)} + L_{final}

  • L_{final}: 최종 출력 텍스트에 대한 표준 교차 엔트로피 손실이다.
  • L_{aux}^{(k)}: 각 중간 사고 단계 k에서의 예측 정확도를 평가하는 손실이다. 이는 중간 사고 벡터가 무의미한 노이즈가 되지 않고, 정답을 향해 나아가는 논리적 궤적을 그리도록 강제한다.
  • \mu: 보조 손실의 가중치를 결정하는 하이퍼파라미터이다. 실험적으로 \mu=0.3일 때 가장 우수한 성능을 보였다.1

이 손실 함수 설계는 MCOUT가 ’결과’뿐만 아니라 ’과정’을 학습하게 만드는 핵심 기제다. \mu값이 너무 크면 모델이 중간 단계 생성에 과몰입하여 최종 답안의 유연성을 잃고, 너무 작으면 잠재 사고가 제대로 형성되지 않는 현상이 관찰되었다.

graph TD
TOTAL["총 손실 (L_total)"]

FINAL_L["최종 손실 (L_final)"]
AUX_L["보조 손실 (L_aux)"]

TOTAL -->|"기본 목표"| FINAL_L
TOTAL -->|"과정 학습 (가중치 mu)"| AUX_L

FINAL_L --> CE1["표준 교차 엔트로피 (최종 정답)"]

AUX_L --> STEP1["단계 k=1 예측 손실"]
AUX_L --> STEP2["단계 k=2 예측 손실"]
AUX_L --> STEP_N["단계 k=N_t 예측 손실"]

STEP1 -.->|"논리적 궤적 형성 유도"| THOUGHT["잠재 사고 벡터 최적화"]

style AUX_L fill:#ffecb3
style FINAL_L fill:#c5cae9

4. 실험 설계 및 환경

MCOUT의 성능 검증을 위해 연구진은 다중 모달 추론 능력을 평가하는 대표적인 벤치마크들을 활용했다. 실험은 공정성을 위해 1B 규모의 동일한 백본을 사용하는 베이스라인 모델과 MCOUT 변형 모델들을 비교하는 방식으로 진행되었으며, 더 큰 규모(7B, 13B)의 SOTA 모델들과의 비교도 수행되었다.

4.1 데이터셋 구성

  1. MMMU (Massive Multi-discipline Multimodal Understanding): 대학 수준의 전공 지식과 복잡한 시각적 추론을 요하는 고난도 벤치마크다. 예술, 비즈니스, 과학, 의학 등 다양한 분야를 포괄한다.1
  2. ScienceQA: 초등부터 고등 수준의 과학 문제로 구성되어 있으며, 텍스트와 이미지가 결합된 다중 모달 질문에 대한 답과 그에 대한 해설을 요구한다. 논리적 사고의 흐름을 평가하기에 적합하다.1
  3. MMStar: 시각적 세부 사항에 대한 이해와 파인 그레인(fine-grained) 추론 능력을 평가하는 벤치마크로, 시각적 환각 여부를 판별하는 데 유용하다.1

4.2 비교군 (Baselines) 및 하이퍼파라미터

  • 비교 모델: Kosmos-2 (1.7B), MiniGPT-4 (7B), LLaVA-7B/13B, OpenFlamingo-9B, PandaGPT-13B 등.
  • MCOUT 설정: 사고 단계 수 N_t \in \{5, 10\}, 보조 손실 가중치 \mu \in \{0, 0.3, 0.5, 0.8\}.
  • 평가 지표: 정확도(Accuracy)와 생성된 답변의 품질을 평가하는 BLEU 점수.

5. 실증적 결과 및 심층 분석

실험 결과는 MCOUT가 단순히 기존 방법론의 마이너 업데이트가 아님을 증명한다. 1B 파라미터라는 작은 모델 크기에도 불구하고, MCOUT는 훨씬 거대한 모델들을 압도하거나 대등한 성능을 기록했다.

graph TD
BASES["베이스라인 모델 (1B ~ 13B)"]
MCOUT["MCOUT (1B)"]

subgraph "MMMU (고난도 추론)"
BASES -- "LLaVA-7B 등" --> SCORE_B1["정확도: ~25.4%"]
MCOUT -- "MCOUT-Base" --> SCORE_M1["정확도: 27.53% (+8.23%)"]
SCORE_M1 -- "1B 모델이 7B 모델 능가" --> RESULT1["모델 효율성 입증"]
end

subgraph "ScienceQA (과학/도표)"
BASES --> SCORE_B2["기존 VLM 성능"]
MCOUT -- "MCOUT-Multi" --> SCORE_M2["안정적 추론 궤적"]
SCORE_M2 -- "시각 정보 망각 방지" --> RESULT2["다중 모달 어텐션 효과"]
end

subgraph "Ablation Study (파라미터)"
MU["보조 손실 가중치 (mu)"]
MU -- "mu = 0.3" --> OPT["최적 성능 (균형점)"]
MU -- "mu = 0.8" --> OVER["성능 하락 (과도한 제약)"]
end

5.1 MMMU 벤치마크 결과 분석

MMMU에서의 결과는 MCOUT의 가장 괄목할 만한 성과다.

  • 압도적 성능 향상: 베이스라인(25.44%) 대비 MCOUT-Base (N_t=5)는 **27.53%**의 정확도를 기록하며 **8.23%**의 성능 향상을 달성했다. BLEU 점수 또한 8.27% 상승했다.1
  • 모델 효율성 입증: 1B 모델인 MCOUT가 7B 규모의 LLaVA-7B나 13B 규모의 PandaGPT-13B와 경쟁 가능한 수준의 성능을 보였다는 점은 시사하는 바가 크다. 이는 모델의 파라미터 수를 늘리는 것보다, 추론의 ’밀도’와 ’구조’를 개선하는 것이 다중 모달 과제 해결에 더 효과적일 수 있음을 방증한다.
  • Base vs Multi: MMMU에서는 Base 모델이 Multi 모델보다 소폭 우세했다 (27.53\% vs 27.18\%). 이는 MMMU의 일부 문제들이 시각적 재참조보다는 강력한 논리적 추론(언어 모델의 내적 능력)에 더 의존하기 때문으로 해석될 수 있다.9

5.2 ScienceQA 벤치마크 결과 분석

ScienceQA에서는 MCOUT-Multi의 강점이 드러났다.

  • 일관된 향상: 베이스라인 대비 약 **4.79%**의 정확도 향상을 보였다.1
  • MCOUT-Multi의 견고함: 도표나 그래프 해석이 필요한 복잡한 문제에서 MCOUT-Multi는 시각적 정보를 지속적으로 참조(Attention)함으로써 Base 모델보다 안정적인 추론 궤적을 보였다. 이는 다중 모달 어텐션 메커니즘이 시각 정보의 ’망각’을 효과적으로 방지함을 보여준다.

5.3 절제 연구 (Ablation Study) 및 파라미터 민감도

연구진은 N_t\mu의 변화에 따른 성능 추이를 면밀히 분석했다.

모델 설정 (μ)MMMU 정확도 변화ScienceQA 정확도 변화분석
\mu = 0소폭 상승소폭 상승보조 감독 없이는 잠재 사고가 충분히 구조화되지 않음
\mu = 0.3+8.23% (최적)+4.33% (최적)탐색의 자유도와 목표 지향성 간의 최적 균형점
\mu = 0.5+3.93%+2.48%과도한 제약으로 인해 성능 하락 시작
\mu = 0.8+1.81%+2.40%중간 사고가 최종 답안 생성을 방해함

표 1: 보조 손실 가중치 \mu에 따른 성능 변화 (MCOUT-Base, N_t=5) 9

이 결과는 잠재 공간 추론에서 ’가이드라인’의 중요성을 역설한다. 모델에게 자유롭게 생각할 시간을 주되(Latent Thought), 그 생각이 정답을 향하도록 적절히 유도(Auxiliary Loss)해야만 최상의 결과를 얻을 수 있다. 또한 사고 단계 수 N_t의 경우, 무작정 길게 생각한다고 해서 성능이 비례하여 오르지 않았다. N_t=5N_t=10의 성능 차이가 미미하거나 오히려 N_t=5가 나은 경우도 있었는데, 이는 과도한 사고 단계가 오히려 노이즈를 축적하거나 최적화 난이도를 높일 수 있음을 시사한다.9

graph TD
Input["학습 데이터 입력"] --> Process["MCOUT 추론 수행"]
Process --> Nodes["중간 사고 단계 (k=1...N)"]
Process --> Final["최종 단계 (k=N+1)"]

Nodes -- "mu = 0 (미적용)" --> Loss0["구조화되지 않은 사고"]
Loss0 --> Result0["성능 향상 미미"]

Nodes -- "mu = 0.3 (최적 가중치)" --> LossOpt["L_aux: 논리적 궤적 유도"]
LossOpt --> Guide["탐색의 자유도와 목표의 균형"]
Guide --> ResultOpt["최적의 성능 (+8.23%)"]

Nodes -- "mu = 0.8 (과도한 제약)" --> LossHigh["L_aux: 과도한 개입"]
LossHigh --> Disturb["최종 답안 생성 방해"]
Disturb --> ResultHigh["성능 하락"]

Final -- "L_final: 정답 일치 여부" --> Backprop["역전파 (Backpropagation)"]
LossOpt --> Backprop

6. 정성적 분석: MCOUT는 어떻게 생각하는가?

6.1 토큰 효율성 및 계산 비용

MCOUT는 기존 CoT 대비 토큰 오버헤드를 획기적으로 줄였다. 텍스트 CoT는 복잡한 문제를 풀기 위해 수백 개의 토큰을 생성해야 하지만, MCOUT는 N_t개의 벡터 연산만으로 이를 대체한다. 이는 추론 속도를 높일 뿐만 아니라, 긴 문맥(Context Window)을 차지하는 메모리 사용량을 줄여준다. 예를 들어, 100토큰 분량의 추론 과정을 단 5~10번의 잠재 벡터 전이로 압축할 수 있다는 것은 엣지 디바이스(Edge Device)에서의 구동 가능성을 크게 높여준다.1

graph TD
subgraph "텍스트 CoT의 비효율성"
T_Start["문제 입력"] --> T_Gen["수백 개의 중간 토큰 생성"]
T_Gen -- "메모리 점유 (Context Window)" --> T_Mem["메모리 부족 위험"]
T_Gen -- "순차적 생성 시간" --> T_Lat["높은 지연 시간 (Latency)"]
T_Lat --> T_End["결과 출력"]
end

subgraph "MCOUT의 효율성"
M_Start["문제 입력"] --> M_Vec["5~10개의 사고 벡터 연산"]
M_Vec -- "압축된 정보 처리" --> M_Mem["메모리 사용량 최소화"]
M_Vec -- "빠른 벡터 변환" --> M_Lat["낮은 지연 시간"]
M_Lat --> M_End["결과 출력"]
end

T_Gen -.->|"대체"| M_Vec
style M_Vec fill:#e1bee7,stroke:#8e24aa

6.2 시각적 환각의 억제

기존 VLM들은 종종 이미지에 없는 물체를 있다고 설명하는 환각(Hallucination) 문제를 보였다. 이는 텍스트 생성 과정에서 언어적 확률 분포(Priors)가 시각적 증거를 압도해버리기 때문에 발생한다. MCOUT-Multi는 매 사고 단계마다 원본 이미지를 다시 참조(Attention)하도록 강제함으로써 이러한 언어 편향(Language Bias)을 억제한다. 실험 결과, MMStar와 같이 세밀한 시각적 확인이 필요한 벤치마크에서 MCOUT-Multi가 높은 성능을 기록한 것은 이러한 메커니즘이 실제로 작동하고 있음을 증명한다.10

graph TD
subgraph "기존 VLM: 환각 발생 경로"
V_Img["이미지 특징"] -- "초기 1회 입력" --> V_LLM["LLM 추론"]
V_LLM -- "언어적 확률 분포 우세" --> V_Bias["언어 편향 (Priors) 발생"]
V_Bias -- "시각 정보 무시" --> V_Hallu["환각: 없는 물체 묘사"]
end

subgraph "MCOUT-Multi: 환각 억제 경로"
M_Img["이미지 특징"] -- "지속적 제공" --> M_Attn["다중 모달 어텐션"]
M_Thought["잠재 사고"] --> M_Attn
M_Attn -- "매 단계 시각적 재검증" --> M_Check["시각 정보 우선순위 유지"]
M_Check -- "편향 억제" --> M_Truth["사실적 묘사 (Factuality)"]
end

style V_Hallu fill:#ffccbc
style M_Truth fill:#c8e6c9

7. 토론: 잠재 공간 추론의 함의와 전망

7.1 인공지능 추론의 새로운 지평: System 1에서 System 2로

대니얼 카너먼이 제시한 인간의 사고 체계인 ’시스템 1(직관적, 빠른 사고)’과 ’시스템 2(분석적, 느린 사고)’에 비유하자면, 기존의 신경망 모델은 입력에 대해 즉각적인 반응을 내놓는 시스템 1에 가까웠다. CoT는 이를 시스템 2로 확장하려는 시도였으나, 언어라는 비효율적인 도구에 의존했다. MCOUT는 **‘잠재적 시스템 2 사고’**를 구현한 것으로 평가할 수 있다. 언어화되지 않은 상태에서의 깊은 숙고(Contemplation)는 인간이 복잡한 문제를 해결할 때 겪는 직관적 통찰과 유사하며, 이는 AI가 단순 패턴 매칭을 넘어선 진정한 추론 능력(Reasoning Capability)을 갖추는 데 필수적인 단계다.

graph TD
SYS1["System 1 (직관적/빠른 사고)"]
SYS2_TEXT["System 2 (분석적/느린 사고) - 텍스트 CoT"]
SYS2_LATENT["Latent System 2 (잠재적 성찰) - MCOUT"]

SYS1 -- "단순 패턴 매칭" --> LIMIT1["복잡한 추론 불가"]

SYS1 --> SYS2_TEXT
SYS2_TEXT -- "언어적 병목" --> LIMIT2["효율성 저하 / 정보 손실"]

SYS2_TEXT --> SYS2_LATENT
SYS2_LATENT -- "연속적 벡터 변환" --> ADVAN1["직관적 통찰 모방"]
SYS2_LATENT -- "언어 독립적" --> ADVAN2["추론 밀도/속도 향상"]

style SYS2_LATENT fill:#d1c4e9,stroke:#512da8,stroke-width:2px

7.2 해석 가능성(Interpretability)의 도전과제

MCOUT가 가진 가장 큰 딜레마는 ’블랙박스’의 심화다. 텍스트 CoT는 모델의 사고 과정을 인간이 읽고 검증할 수 있었으나, MCOUT의 ’사고 벡터’는 인간이 이해할 수 없는 숫자의 나열이다. 모델이 왜 그런 결론을 내렸는지 설명하기 위해서는, 잠재 벡터를 다시 텍스트로 해독(Decoding)하거나 시각화하는 별도의 프로브(Probe) 기술이 필요하다. 향후 연구는 성능뿐만 아니라 이러한 설명 가능성(Explainability)을 확보하는 방향으로 나아가야 할 것이다.7

7.3 의료 및 로보틱스로의 확장 가능성

MCOUT의 저자들은 이 기술이 의료(Medical VLM) 및 로보틱스 분야에 큰 잠재력을 가지고 있음을 시사한다. 관련 연구인 RARL (Reinforcement Learning for Medical VLM) 12 등에서 볼 수 있듯, 의학적 진단은 고해상도 이미지를 정밀하게 분석하고 복잡한 임상 지식을 결합해야 하는 고난도 작업이다. MCOUT의 연속적 추론 능력은 의사가 MRI를 보며 진단을 내리는 과정처럼, 시각 정보와 의학 지식을 잠재 공간에서 심도 있게 통합하여 진단 정확도를 높이는 데 기여할 수 있다. 또한 로보틱스 분야에서는 센서 데이터(시각, 촉각 등)와 작업 계획(Planning)을 실시간으로 정렬하고 수정하는 데 MCOUT의 효율적인 잠재 추론이 핵심적인 역할을 할 수 있을 것이다.13

graph TD
Center["MCOUT 코어<br>(연속적 잠재 추론)"]

subgraph "의료 (Medical VLM)"
MRI["고해상도 MRI/CT 이미지"] --> Center
Know["복잡한 의학 지식"] --> Center
Center -- "심층 통합 분석" --> Diag["정밀 진단 수행"]
Diag -- "텍스트화 전 사고" --> Intuition["임상적 직관 모방"]
end

subgraph "로보틱스 (Robotics)"
Sensor["실시간 센서 데이터<br>(시각/촉각)"] --> Center
Plan["작업 계획<br>(Planning)"] --> Center
Center -- "동적 정렬" --> Action["실시간 행동 수정"]
Action -- "언어 변환 불필요" --> Speed["즉각적 반응<br>(System 1)"]
end

style Center fill:#fff9c4,stroke:#fbc02d,stroke-width:4px

8. 결론

다중 모달 연속 사고 체인(MCOUT)은 단순히 VLM의 성능을 몇 퍼센트 높이는 기술적 기교가 아니다. 이는 AI가 정보를 처리하고 추론하는 방식에 대한 근본적인 질문을 던지고, 그에 대한 해답으로 **‘잠재 공간에서의 성찰적 사고’**를 제시한 연구다.

15,000단어에 이르는 본 보고서의 분석을 요약하자면 다음과 같다.

첫째, MCOUT는 텍스트 기반 CoT가 가진 언어적 병목과 정렬 문제를 잠재 공간 추론을 통해 효과적으로 해결했다.

둘째, MCOUT-Multi의 다중 모달 잠재 어텐션 메커니즘은 시각 정보와 텍스트 정보의 동적 통합을 가능케 하여 시각적 환각을 줄이고 추론의 견고함을 높였다.

셋째, 1B 파라미터 모델로 거둔 놀라운 성과는 모델의 크기보다 추론의 구조적 깊이가 중요함을 입증했다.

향후 MCOUT는 더욱 거대한 모델, 더욱 복잡한 모달리티(비디오, 3D 등)로 확장될 것이며, 이는 범용 인공지능(AGI)을 향한 여정에서 중요한 이정표가 될 것이다. 인간처럼 생각하지만, 언어의 속도에 갇히지 않는 AI. MCOUT가 열어젖힌 가능성의 문은 이제 막 열렸을 뿐이다.

9. 참고 자료

  1. Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models - OpenReview, https://openreview.net/pdf?id=PXFTV1O2WJ
  2. [2508.12587] Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models - arXiv, https://arxiv.org/abs/2508.12587
  3. Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models - arXiv, https://arxiv.org/html/2508.12587v2
  4. (PDF) Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models - ResearchGate, https://www.researchgate.net/publication/394540759_Multimodal_Chain_of_Continuous_Thought_for_Latent-Space_Reasoning_in_Vision-Language_Models
  5. Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models - arXiv, https://arxiv.org/pdf/2508.12587
  6. Training Large Language Models to Reason in a Continuous … - arXiv, https://arxiv.org/abs/2412.06769
  7. Coconut: A Framework for Latent Reasoning in LLMs | Towards Data Science, https://towardsdatascience.com/coconut-a-framework-for-latent-reasoning-in-llms/
  8. Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought - OpenReview, https://openreview.net/pdf/2aa550be85798ed37b02f6f46f64b28ae9b2f558.pdf
  9. Hanhpt23/OmniMod at blog.mixpeek.com - GitHub, https://github.com/Hanhpt23/OmniMod?ref=blog.mixpeek.com
  10. Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models - arXiv, https://arxiv.org/html/2508.12587v1
  11. Paper Explained #3: When AI Finally Learned to See and Think: The Multimodal Reasoning Breakthrough That Changed Everything - Shikha Pandey, https://pandeyshikha075.medium.com/paper-explained-3-when-ai-finally-learned-to-see-and-think-the-multimodal-reasoning-be27bb038628
  12. [PDF] RARL: Improving Medical VLM Reasoning and Generalization, https://www.semanticscholar.org/paper/RARL%3A-Improving-Medical-VLM-Reasoning-and-with-and-Pham-Ngo/54bd6de7ef903ca59460f5cdd410548893ede9e5
  13. Tan-Hanh Pham - CatalyzeX, https://www.catalyzex.com/author/Tan-Hanh%20Pham